深远的变革即将到来,而人的作用依然重要。
过去几十年,计算机的出现使几乎所有经济部门的运转都发生了翻天覆地的变化[1]。得益于最近机器学习的发展,自动化技术明显加快了自身演进的步伐,这使得人类社会开始步入更为宏大、更为迅速的转型阶段。尽管机器学习如同蒸汽机和电力一样也是一种“通用技术”,激发了大量的应用创新出现[2],然而对于“机器学习擅长从事哪些任务”这一问题,人们并没有达成广泛的共识,更不用说其对劳动力,乃至整个经济领域将会产生什么预期的影响了。通过借鉴当前机器学习系统在给定工作上的能与不能1,我们来探讨其对劳动力的关键影响。尽管许多工作中的一部分可能是“适合机器学习”(SML)的,但是这些工作中的其他任务却并不适合。因此,它对就业的影响比目前某些人简单地提出“机器取代人”的想法要复杂得多。另外也要看到,虽然现在机器学习的经济影响相对有限,人类也还没有像宣称的那样面临即将到来的“失业”,但它对未来经济和劳动力的影响仍是深远的。
任何有关机器学习能与不能,以及它如何对经济产生影响的相关讨论,首先都应该认识到以下两个基本因素。一是我们离全面的人工智能时代还很遥远[3],二是机器不可能解决人类可以完成的全部任务[4]。此外,虽然总体上来说创新对收入和生活水平的整体提高很重要,特别是前机器学习时代的IT技术所带来的第一波浪潮也已创造了数万亿美元的经济价值,但是“技术进步更大程度上导致了收入的不平衡”(参见文献[1],这是我们最近为美国国家科学、工程和医学科学委员会提交的一份报告)。尽管造成不平衡的因素有很多,比如日益加剧的全球化,但是近十年内,机器学习将在很多领域引起剧变,表明其对经济具有高度颠覆性的影响,从而造就了众多的赢家和输家。因此,政策制定者、商业领袖、技术人员和研究人员都需要高度重视这种情况。
当机器能够自动完成特定作业或流程中的SML任务时,剩下的非SML任务可能会变得更有价值。在其他情况下,机器将增强人的能力,推动全新的产品、服务和流程的诞生。因此,即使在部分自动化的工作岗位上,对劳动力需求的净影响也可能是积极或消极的。虽然更广泛的经济影响很复杂,但对劳动力的需求更有可能落在与机器学习的能力接近的任务上,为这些系统做的辅助性任务则有可能相应地增加。每当机器学习系统在某项任务上比人工更具成本效益时,企业家和管理者就会更多地使用机器来替代人工,以达到利润最大化,从而对经济产生影响,例如提高生产力、降低价格、转移劳动力需求、重组行业等。
所知超过所能言
正如哲学家波兰尼(Polanyi)所说,我们的所知超过所能言明(We know more than we can tell)[5]。识别人脸、骑自行车和理解自然语言是人类与生俱来的能力,但是我们却不知道自己是如何做到和学习的。我们不能轻易地将一些工作完整地整理成一套正式的规则。因此,在机器学习出现之前,波兰尼悖论给出了计算机可以通过编程自动完成的任务集合[6]。但是在当前许多情况下,机器学习算法已经可以将计算机系统训练得更精确有力,胜过人工编写的程序。
直到近些年,编写一个新的计算机程序仍需要繁琐的手工编码。但是这个代价高昂的过程正在被更多的机器学习算法所取代,它们用适当的训练数据来学习,自动化程度更高。这种转变的重要性是双重的。首先,在越来越多的应用中,这种模式可以产生比人类手工编写更精确、更可靠的程序(例如人脸识别和信用卡欺诈检测)。其次,这种模式可以大大降低创建和维护新软件的成本,从而减少实验阻碍。探索潜在的计算机化任务,促使计算机系统可以在很少或根本没有人为干预的情况下自动实现许多类型的常规工作流程。
在过去的6到8年里,机器学习研究进展尤其迅速,这在很大程度上得益于某些任务的海量训练数据,这些数据的量足够大,能够捕捉其中蕴含的一些非常有价值且未被注意到的规律——对于一个人来说,审视和理解这些数据的可能性不大,但是机器学习算法能够对其进行处理。当有足够多的训练数据集可用时,机器学习有时可以比人类技高一筹(例如,皮肤病诊断、围棋游戏、信用卡潜在欺诈检测等)。
各种改进算法的结合对机器学习的进展也至关重要,比如深度神经网络模型的提出和硬件设备算力的迅速提高。例如,脸书从短语机器翻译模式转换到深度神经网络(DNN)后,每天翻译次数可以超过45亿次。ImageNet是一个包含10000多个标记图像的大型数据集[7],用于图像识别的DNN把ImageNet上的识别错误率从2010年的30%多降到现在的不到3%。同样地,自2016年7月以来,DNN将语音识别错误率从8.4%降低到4.9%。众所周知,在图像和语音识别领域,5%是非常重要的临界值,因为这几乎是人类在识别类似数据时的错误率。
自动化之自动化
要给出一个能够应用机器学习算法的定义明确的学习任务,我们必须充分说明任务内容、性能指标和训练数据。在大多数实际应用中,要学习的任务都对应于某个目标函数,例如从输入患者健康记录到输出医疗诊断,或者从输入自动驾驶车辆的传感器状态到输出正确的下一个转向命令。最常见的训练数据类型是由目标函数的输入-输出组成的成对数据(例如与正确诊断配对的医疗记录)。获取有标注的训练数据在许多领域都很困难,如精神病诊断、雇用决策和法律案例等等。
成功商业应用的关键步骤通常是设法明确要学习的函数;收集和清洗数据使其可用于训练机器学习算法;设计数据特征以选择其中有助于预测目标输出的特征,并且收集新的数据以弥补原始特征的不足;尝试不同的算法和参数设置,以优化分类器的准确性;将训练好的系统嵌入到日常业务运营中,从而提高生产力,并尽可能持续获取额外的训练样本。
“学徒学习”(有时称为“人为介入”)的方法[8]可以用来衡量未来自动化的程度,其中人工智能程序作为学徒来协助工作者,同时不断观察并捕获人类的决策,并以此作为额外的训练样本,这种方法促成了新的商业模式的诞生。
训练一个“机器学徒”来模仿人类的决策,是潜在地帮助机器从它所协助的多人综合数据中进行学习,使它最终的表现可能超过团队中的每一个人。不过,其学到的专业能力可能受限于团队的技能水平和相关决策变量的在线可用性。但是,在计算机也可以访问独立数据来确定最佳决策(ground truth)的情况下,它有可能改进人的决策,然后帮助人类自我提升。例如,某些计算机程序在根据皮肤图像诊断皮肤癌时,将随后的活检结果作为训练的黄金标准可以产生比人类医生更高的诊断准确度[9]。
最适合的任务
尽管最近机器学习系统能力的进步日新月异,但它们并不适用于所有的任务。当前机器学习的成功主要依赖于监督学习,这通常使用DNN来完成。在非常适合这种方法的领域,它们犹如“灵丹妙药”。然而,与人类相比,它们的决策能力还相对较弱,并且在某些情况下效率低下。当然,机器学习还在继续进步,不同类型的任务可能有其他更好的解决方法。我们定义了8个关键标准,至少在使用主流机器学习范式时,这些标准有助于区分任务是否适合机器学习(详见补充材料中的“21条法则”)。
1. 学习定义明确的输入输出匹配的函数
这一准则适用于分类(例如,在图像中标记狗的品种,或根据患癌症的可能性标记医疗记录)和预测(例如,分析贷款申请以预测未来违约的可能性)。尽管机器学习可以学习预测与任意给定X相关的Y值,但仅学习到统计相关性,不会学习到因果效应。
2. 现存的或可以创建的包含输入-输出对的大(数字)数据集
训练样本越多,学习的准确性就越高。DNN的一个显着特征就是在样本数量达到足够多后性能趋于稳定[10]。因而在训练数据中获取所有相关输入特征尤为重要。尽管DNN[11]原则上可以表示任意函数,但是计算机很容易模仿和延续训练数据中的偏差,并且会错失一些难以观测到的相关变量间的规律性。数据通常可以通过监测现有流程和用户交互来创建,通过聘用人员来明确标记部分数据,或者创建全新的数据集,抑或通过模拟相关问题设置来创建。
3. 该任务提供具有明确目标和指标的反馈
即使我们不能确定实现目标的最佳过程,机器学习也能很好地描述目标。这与早期的自动化方法形成对比。虽然机器学习算法模仿了个体的决策能力,但可能不会使系统拥有最佳性能,因为人类本身不会做出完美的决定。因此,明确界定系统级的性能指标(例如,优化整个城市而不是特定交叉路口的交通流量)为机器学习系统提供了一个黄金标准。当训练数据按照这些黄金标准进行标记时,机器学习会展现出强大的能力,性能表现极佳。
4. 没有依赖于不同背景知识或常识的逻辑或推理长链
机器学习系统擅长学习数据中的经验关联,但是当任务需要依赖计算机未知的常识或背景知识来进行推理长链或复杂规划时,机器学习系统的效率很低。吴恩达2的“一秒规则” [4]表明机器学习应用在视频游戏中卓有成效,这些视频游戏需要快速反应,并提供即时反馈,但需要根据以前的事件和未知背景知识选择最佳动作时(例如,找到房间里新放入的物品)[12],机器学习的表现不尽如人意。围棋和象棋这类游戏例外,因为这些非物理的游戏可以被快速地精确模拟,所以可以自动收集数百万个完全自我标记的训练样例。但是,在现实世界大多数领域中,我们缺乏这样完美的模拟。
5. 不需要详细解释如何做出决策
大型神经网络通过巧妙地调整数以亿计的权重来学习做出决策,这些权重互连了人造神经元。人类难以理解这一过程,因为DNN通常不会使用与人类相同的中间抽象。有人正在开展对可解释的人工智能系统的研究[13],但目前这个领域尚处于雏形阶段。例如,虽然计算机可以诊断特定类型的癌症或肺炎,有些情况下甚至比专家医生的诊断更准确,但与人类医生相比,它们无法很好地解释为什么或如何做出诊断。对于许多感性的任务,人类也很难解释,例如,如何从声音中识别出单词。
6. 具有容错能力,不需要最佳解决方案
几乎所有的机器学习算法都是根据统计和概率来推导出他们的解决方案,因此很难将其训练到具有100%的准确率。即使是最好的语音、物体识别和临床诊断计算机系统也会出错(就像最专业的人也会犯错一样)。因此,容错能力是限制系统应用的重要指标。
7. 所学的现象或函数不应随着时间而快速变化
一般来说,只有当未来测试样例的分布类似于训练样例时,机器学习算法才能起到有效作用。如果这些分布随着时间而改变,通常需要重新训练,因此成功与否取决于新训练数据的变化程度(例如,垃圾邮件过滤器在处理垃圾邮件发送者方面做得很好,部分原因是与垃圾邮件变化的速度相比,新电子邮件的接收率较高)。
8. 没有精确的灵活性、身体技能或机动性要求
在处理非结构化的环境和任务中的物理操作时,机器人与人类相比还是相当笨拙的。这不是机器学习的缺点,而是现有机械技术的缺陷。
劳动力的影响
机器学习出现之前的 IT技术主要影响高度结构化和重复性的任务[14]。在技能和薪酬谱系中处于中等位置的工作需求已经显著下降,就像店员和工厂工人,IT技术成为导致这种现象的关键原因,而在发达国家,低端人才(例如门卫或保姆)和高端人才(如医师)的需求变得更为强烈[15]。但是在未来几年,更多的任务将被机器实现自动化或者增强。这其中包括一些人类尚无法阐明其具体策略的任务,但通过数据统计可揭示其规律性。尽管常规与非常规任务的框架可以有效界定任务能否自动化[14],但SML任务集通常各不相同。因而仅仅根据过去的框架来推断会产生误导,我们需要一个新的框架。
工作通常由许多不同但相互关联的任务组成。在大多数情况下,这些任务中可能只有部分适用于机器学习,而且不一定能使用以前的技术实现自动化。例如,当我们将SML的21条法则应用于各行各业时,我们发现可以训练机器学习系统来帮助律师对与案件潜在相关的文件进行分类,但要采访可能的证人或者制定获胜的法律策略时却困难得多[16]。类似地,机器学习系统在浏览医学图像方面取得了飞快的进展,在某些应用中的表现甚至优于人类[17]。然而,与其他医生交流的非结构化任务,以及与患者交流和安抚患者的任务都不适合机器学习方法,至少现在看来是这样。
这并不是说所有需要情商的任务都是机器学习系统无法实现的。出人意料的是,它在某些销售和客户互动方面可能非常合适。例如,销售人员和潜在客户之间的大量在线聊天记录可以用作简单聊天机器人的训练数据,以识别哪些常见查询的答案最有可能促成销售成功[18]。一些公司也使用机器学习来识别视频中人的微妙情绪。
另一个不同于传统框架的SML标准所涉及的领域是有关创意的任务。旧的计算模式需要事先明确规定过程中的每个步骤。机器没有空间实现“创新性”,或者自己想出解决特定问题的方法。但是机器学习系统是专门让机器自己找出解决方法而设计的系统。它所需要的不是预先详细定义过程,而是需要明确规定所需要的解决方案的性质,以及一个合适的模拟器,以便机器学习系统探索可用方案并准确评估其性能。例如,人类一直比机器更擅长设计一个复杂的新设备,但是机器学习系统生成的设计软件可以为热交换器这样的物体提供新的设计,比人类设计的能更完美地满足所有的要求(重量、强度和冷却速率),并具有独特的界面外观[18]。
这是“创意”吗?这取决于使用什么定义了。以前人类专属的一些“创造性”任务在未来几年将日益自动化。当可以很好定义最终目标,并且可以自动评估解决方案的对错或效果时,这种方法很适用。因此,可以预想这些任务将日益自动化。与此同时,虽然明确界定目标后机器可以更加容易地解决问题,但人类在更明确地定义目标这一过程中扮演的角色也将变得更加重要,例如科学家、企业家以及那些正确指出问题的人。
六大经济因素
有许多反映机器学习对劳动力影响的非技术因素。具体而言,机器学习对劳动力需求和工资的总体影响可以转化成六项经济因素:
1. 替换
在任意生产力水平下,基于机器学习的计算机系统都能直接在一些任务中取代人类,减少人力需求。
2. 价格弹性
通过机器学习实现自动化可以降低任务的成本,这可能会导致总支出浮动,具体取决于需求的价格弹性。例如,如果弹性小于-1,则价格下降导致购买数量成比例增加,总支出(价格乘以数量)也将增加。比如说1903年以后,由于技术降低了航空旅行的价格,这类旅游的总支出增加了,这个行业的就业情况也是如此。
3. 互补
任务B对于另一个自动化的任务A来说可能是重要的,甚至是不可或缺的补充。随着A的价格下降,对B的需求将会增加。比如说,随着计算变得自动化,对于程序员的需求增加了。技能之间也可以互相补充,例如人际交往能力对分析能力的补充不断增加[19]。
4. 收入弹性
自动化可能会改变某些个人或广大群体的总收入。如果一个商品的收入弹性不为零,就会改变对某些类型商品的需求以及生产这些商品所需任务的派生需求。例如,随着总收入的增加,美国人外出就餐的花销就会更大。
5. 劳动力供给的弹性
通常情况下,从事某项工作的人数会随着薪酬的变化而变化。如果有许多人已经具备了某项工作必要的技能(例如对于打车服务的开车技能),那么该项工作的人力供给就会相当有弹性,即使岗位需求变化较大,工资也不会产生较大浮动。相反,如果技能难以掌握,比如成为数据科学家,那么需求的变化将主要体现在工资而不是就业上。
6. 业务流程的再设计
对于任意给定的不同类型和数量的劳动力、资本以及其他投入与产出,其生产函数是不固定的。因而企业家、管理人员和员工一直努力重塑业务流程。当面对新技术时,他们将通过有意而为或运气使然改变生产过程,并找到更有效的方法来生产[20]。这些变化需要耗费一段时间,但往往能节省高昂的投入,增加需求弹性。同样,随着时间的推移,个人可以通过培养工作所需的新技能或更换工作地点,增加相关的供给弹性,来追求高薪工作。因此,根据勒夏特列原理[21],随着准固定因素的调整,长期供需弹性往往会比短期更大。
由于需要改变生产流程、组织设计、商业模式、供应链、法律约束甚至文化期望,技术的采用和推广往往需要几年或几十年的时间。这种互补性在现代机构和经济中无处不在,因为它们微妙、难以辨认且惯性大,所以实施起来较慢,尤其是特别激进的新技术[22]。在许多方面进行补充性改变的应用比那些只对现有系统轻微改动的应用对经济和劳动力的影响耗时更长。例如,让自动驾驶车辆行驶在城市街道上可能需要改变交通法规、责任规定、保险规定、交通流量等大量工作,而在呼叫中心从人员助理转变为虚拟助理可能仅需要对业务流程或客户体验的其他方面进行少量的重新设计。
随着时间的推移,另一个因素变得越来越重要:新的商品、服务、任务和流程持续被创造出来。这些发明会带来大量新的任务和工作[23],从而改变上述关系的强度和趋势。从历史上看,随着一些任务的自动化,释放的劳动力会被重新分配到生产新的商品、服务或新的更有效的生产过程中。在提高总收入和生活水平上,这种创新比增加资本、劳动力或资源投入更为重要。机器学习系统可以通过使自动化本身在某种程度上变得自动化来加速符合上述标准的许多任务的转变过程。
随着更多的数据通过在线收集并汇总,我们一旦发现某些任务应该通过机器学习实现自动化时,就能更迅速地收集数据以创建更强大的系统。机器学习解决问题的方法几乎可以迅速应用在世界各地,但人类不行。我们有充分的理由相信,未来的企业软件系统在每个在线决策任务中都将引入机器学习,从而使尝试自动化的成本进一步降低。
近期监督学习系统的热潮对经济的影响举足轻重。机器学习最终发展的范围和规模或许可以与早期的内燃机或电力等通用技术相媲美,甚至有过之而无不及。这些进步不仅直接提高了生产力,更重要的是引发了机器、商业组织乃至整个经济的互补性创新浪潮。一些个人、企业和社会在技能、资源和基础设施等方面做出了正确的互补性投资,从而蓬勃发展,而另一些人不仅没有收获利益,甚至在某些情况下变得更糟。因此,更好地理解每种类型机器学习的具体适用性及其对具体任务的影响,对于了解其可能产生的经济影响至关重要。
作者:
埃里克·布林约尔夫森(Erik Brynjolfsson) 麻省理工学院斯隆管理学院教授,美国国家经济研究局助理研究员。erikb@mit.edu
汤姆·米切尔(Tom Mitchell) 卡耐基梅隆大学教授。
脚注:
* 本文译自Science, “What can machine learning do? Workforce implications”, 2017, 358(6370): 1530~1537.DOI:10.1126/science. aap8062.一文。翻译和印刷版权已征得AAAS同意,此译文不是原文作者和AAAS的官方翻译,由CCCF特邀译者翻译。如有疑问,请参考由AAAS出版的英文原文(http://science.sciencemag.org/content/358/6370/1530)。
2 吴恩达(Andrew Ng)1976年出生于伦敦,1992年就读于新加坡莱佛士书院,1997年获得卡内基梅隆大学的计算机科学学士学位,1998年获得麻省理工学院硕士学位,2002年获得加州大学伯克利分校博士学位,并担任斯坦福大学计算机科学系和电子工程系副教授、人工智能实验室主任。是人工智能和机器学习领域最权威的学者之一。曾在谷歌和百度任职,现为Woebot公司董事长。——编者注
参考文献
[1] National Academies of Sciences, Engineering, and Medicine, Information Technology and the U.S. Workforce: Where Are We and Where Do We Go from Here? (National Academies Press, Washington, DC, 2017).
[2] E. Brynjolfsson, D. Rock, C. Syverson, Artificial Intelligence and the Modern Productivity Paradox: A Class of Expectations and Statistics, NBER Working Paper 24001 (National Bureau of Economic Research, Cambridge, MA, 2017).
[3] S. Legg, M. Hutter, Frontiers in Artificial Intelligence and Applications 157, 17 (2007).
[4] A. Ng, What artificial intelligence can and can¡¯t do right now, Harvard Business Rev. (9 November 2016).
[5] M. Polanyi, The Tacit Dimension (University of Chicago Press, Chicago, 1966).
[6] D. Autor, Polanyi’s paradox and the shape of employment growth; presentation to the Federal Reserve Bank of Kansas City’s Jackson Hole Central Banking Conference (2014).
[7] J. Deng et al., Imagenet: A large-scale hierarchical image database. Computer Vision and Pattern Recognition, 2009. IEEE Conference on. IEEE, 2009. [ImageNet (most recent competition): http://image-net.org/challenges/LSVRC/2017/results]
[8] T. Mitchell, S. Mahadevan, L. Steinberg, LEAP: A learning apprentice for VLSI design, in ML: An Artificial Intelligence Approach, vol. III, Y. Kodratoff, R. Michalski, Eds. (Morgan Kaufmann Press, 1990).
[9] A. Esteva et al., Nature 542, 115 (2017).
[10] A. Coates et al., Deep learning with COTS HPC systems. In International Conference on ML (2013), pp. 1337–1345.
[11] G. Cybenko, Mathematics of Control, Signals, and Systems 2, 303 (1989).
[12] V. Mnih et al., Nature 518, 529 (2015).
[13] D. Gunning, Explainable artificial intelligence (xai).Defense Advanced Research Projects Agency, DARPA/I20 (DARPA, 2017).
[14] D. H. Autor, F. Levy, R. J. Murnane (2003). Q. J. Econ. 118, 1279 (2003).
[15] D. H. Autor, D. Dorn, Am. Econ. Rev. 103, 1553 (2013).
[16] D. Remus, F. S. Levy, Can robots be lawyers?, Georgetown J. Legal Ethics (Summer 2017), p. 501.
[17] G. Litjens et al., A survey on deep learning in medical image analysis. arXiv preprint; arXiv:1702.05747 [cs.CV] (19 Feb 2017).
[18] E. Brynjolfsson, A. McAfee, The business of artificial intelligence, Harvard Business Rev. (July 2017).
[19] D. J. Deming, Q. J. Econ. 132, 1593 (2017). 20. J. Manyika et al., A Future that Works: Automation, Employment, and Productivity (McKinsey Global Institute, 2017).
[21] P. Milgrom, J. Roberts, Am. Econ. Rev. 86, 173 (1996).
[22] E. Brynjolfsson, P. Milgrom, in The Handbook of Organizational Economics, R. Gibbons, J. Roberts, Eds. (Princeton Univ. Press, 2013), pp. 11–55.
[23] D. Acemoglu, P. Restrepo, NBER Working Paper 22252 (National Bureau of Economic Research, 2016).
所有评论仅代表网友意见